Sora一夜刷屏！OpenAI发布首个视频生成模型（附演示视频）

科创中国

2024-09-15

美国开放人工智能研究中心OpenAI，15日发布了首个视频生成模型Sora，该模型可通过接收文本指令，生成相应的视频。

据美国开放人工智能研究中心官网介绍，该公司正在努力让人工智能“理解和模拟处在运动当中的物理世界”。此次发布的文字转视频模型可以依据用户输入的指令，生成一段时长可达1分钟的视频。也能获取现有的静态图像并从中生成视频，还能获取现有视频，进行扩展或填充缺失内容。

据介绍，该模型能够生成包含多个角色以及特定类型运动的复杂场景，并能精确生成物体和背景的细节。目前的模型仍然存在缺陷，例如，它可能难以精确模拟复杂场景的物理状况，也可能无法理解一些特定的因果和时间联系等。此外，模型还可能混淆一些文本指令中的空间细节，例如左右方向等。

相关领域专家将对模型展开测试，目前，该模型只向有限数量的创作者提供访问权限。
当前，多家公司，包括科技巨头谷歌和初创公司Runway等，都在积极开发文生视频的人工智能项目。然而，OpenAI强调，Sora的突出之处在于其图像的真实感，这在竞争对手的产品中尚未看到。更令人惊讶的是，Sora能够生成比其他模型更长的视频片段，最长可达一分钟。
纽约大学助理教授谢赛宁直言，“Sora将改写整个视频生成领域”。谢赛宁分析，Sora应该是建立在DiT这个扩散Transformer之上；在视频压缩网络上可能采用VAE架构，区别就是经过原始视频数据训练。他推算Sora可能有大约30亿个参数，并表示，“Sora或许并不需要人们想象中的那么多GPU来训练，如果真是如此，Sora的后期迭代将会非常快。”
英伟达人工智能研究院首席研究科学家Jim Fan认为，Sora是一个数据驱动的物理引擎，称这是视频生成领域的GPT-3时刻，“回到2020年，GPT-3不是一个很完美的模型，但是它有力证明了上下文学习的重要性，所以不要纠结于GPT-3的缺陷，多想想后面的GPT-4。”
特斯拉CEO埃隆·马斯克在社交媒体回应评论时写道：“gg人类”。“gg”是网络游戏中的常用缩写，通常用于游戏结束后，双方玩家互相致意。然而，此时此刻马斯克的回应“gg人类”则被解读为一种自嘲和自我调侃，表达了对OpenAI技术超越人类的认可。

360创始人周鸿祎也发布微博，提到自己对Sora的看法。在他看来，Sora只是小试牛刀，它展现的不仅仅是一个视频制作能力，而是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。
周鸿祎直言，“一旦人工智能接上摄像头，把所有的电影都看一遍，把YouTube上和 TikTok 的视频都看一遍，对世界的理解将远远超过文字学习，一幅图胜过千言万语，这就离AGI真的不远了，不是10年、20年的问题，可能一两年很快就可以实现。”

来源：央视财经、新民晚报、腾讯科技、微博

继续滑动看下一个

科创中国

向上滑动看下一个

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

Sora一夜刷屏！OpenAI发布首个视频生成模型（附演示视频）

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

Sora一夜刷屏！OpenAI发布首个视频生成模型（附演示视频）

您可能也对以下帖子感兴趣